„Zeichne einen Ballon mit drei Farben!“ Das ist einfach gesagt und sollte selbst für kleinere Kinder kein großes Problem darstellen. Einen Computer dazu zu bringen, ist eine Herausforderung und erfordert viel Arbeit. „Der Computer muss verstehen, was gemeint ist, er muss die Beziehungen zwischen den Wörtern herstellen, um schließlich ein Bild zu generieren.“
Computern beizubringen, natürliche Sprache zu verstehen, damit beschäftigt sich Professorin Barbara Plank unter anderem. Die Informatikerin ist im vergangenen Jahr von der IT-Universität Kopenhagen an die LMU gewechselt und forscht im Bereich Natural Language Processing, kurz NLP, am Centrum für Informations- und Sprachverarbeitung.
So arbeitet sie etwa daran, Algorithmen für die Textsuche in Jobannoncen zu verbessern, robuster zu machen, um in Stellenanzeigen ganz bestimmte Kriterien oder Anforderungen für Jobs noch präziser und schneller darzustellen und passgenaue Jobofferten für die Arbeitsuchenden zu ermöglichen. Daten hierfür hat sie unter anderem von der dänischen Arbeitsagentur erhalten. Sie betont: „NLP hat ungeheuer viele Anwendungsmöglichkeiten.“ Vor allem auch in kulturellen oder sozialen Kontexten.
Kleine Sprachen und Dialekte im Blick
Ein weiterer wichtiger Forschungsbereich für Plank ist deswegen die Beschäftigung mit den sogenannten kleinen Sprachen in modernen Sprachtechnologien. „Gerade einmal ein Prozent der insgesamt 7.000 weltweiten Sprachen werden von NLP abgedeckt. Sie zu integrieren, ist schon aus Gründen einer digitalen Inklusion enorm wichtig“, sagt die Südtirolerin, die selbst aus einer ausgesprochen multilingualen Region stammt. Menschen aus verschiedenen Kulturkreisen sollen etwa durch Konzeption und Realisierung von entsprechenden Sprach-Assistenzsystemen am technischen Fortschritt bei der Sprachverarbeitung teilhaben können. Vor allem im Hinblick auf die Sprachbewahrung ergibt sich ein enormes Potenzial. Mehr noch: Auch nicht standardisierte Sprachen und Dialekte sollen in die wissenschaftliche Arbeit am Institut eingebunden werden.
Ihr Projekt „Natural Language Understanding for non-standard languages and dialects“ ist kürzlich gestartet – gefördert mit einem Consolidator Grant des Europäischen Forschungsrats (ERC).
„Mir ist das auch persönlich sehr wichtig, da ich selber Dialektsprecherin bin“, sagt Plank. Ziel ist, Algorithmen zu trainieren, um mit diesem gigantischen Datenfundus umzugehen. Da geschriebene Texte im Falle von Dialekten wenig helfen und zudem gar nicht in ausreichender Menge vorhanden sind, will Barbara Plank die enorme Expertise nutzen, die an der LMU schon vorhanden ist.
Interaktion von Mensch und Maschine
Die vielen Vernetzungsmöglichkeiten, vor allem im Bereich der Künstlichen Intelligenz und der Sprachforschung, an der LMU waren – neben der Nähe zu ihrer Heimat – der wichtigste Grund für die Entscheidung, nach München zu kommen. „Es geht mir nicht darum, nach Hause zu kommen“, sagt sie. „Aber ein bisschen mehr in die Richtung ist schon schön.“ Barbara Plank studierte Informatik im Rahmen eines internationalen Masterstudiengangs, der von der Universität Bozen zusammen mit der Universität Amsterdam durchgeführt wurde. Sie erwarb den Masterabschluss und wurde an der Universität Groningen in den Niederlanden promoviert. Bevor sie nach München kam, war sie Professorin in Kopenhagen und den Niederlanden.
Der hohe Anwendungsbezug ihrer Arbeit ist eine Sache. Wichtig ist ihr dabei, dass der Mensch im Fokus steht. „Die Interaktion zwischen Mensch und Maschine sehe ich als große Herausforderung. Ich denke, dass der Mensch gemeinsam mit der Maschine Probleme viel besser lösen kann und dass auch die Maschine mit dem Menschen gemeinsam lernt.“
Auch hier eröffnen sich zahlreiche Ansätze der Anwendung; die Untersuchung kognitiver Aspekte von Leseverhalten etwa mittels Eyetracking oder Anwendungen, die Meinungen zum Klimawandel oder im Gesundheitssektor analysieren, sind denkbar. Entscheidend sind allerdings die Daten, mit denen sich die Systeme trainieren lassen. Dazu benötigen die Forschenden nicht nur rohe, sondern gerade im Kontext der Interaktion zwischen Mensch und Maschine auch annotierte, also mit Erklärungen versehene Daten. „Auf die Frage ‚Willst du heute Abend mit mir essen gehen?' können maschinelle Systeme nur mit ‚ja‘ oder ‚nein‘ antworten. Es kommt aber darauf an, dem Computer beizubringen, dass eine Antwort wie ‚ich bin müde‘ auch ‚nein‘ heißen kann.“ Auch zum Beispiel bei Meinungsverschiedenheiten müssen Computer mit Unklarheiten umgehen können.
Derzeit wird nur mit einer Meinung beziehungsweise Antwort gearbeitet. Solche Daten zu generieren, ist die große – menschliche – Arbeit, die allen Projekten in der automatisierten Sprachverarbeitung vorangestellt ist, auch in der neuesten Technologie wie zum Beispiel ChatGPT. Denn ohne den Menschen, ohne Forschende wie Barbara Plank kann sie nicht erfolgreich sein.